AGI要来了?AI Paradigm的新阶段和新趋势
最近跟不少创业者和投资人聊,很明显感觉到大家都对未来大模型的边界以及AI发展趋势这块感到迷茫。我从去年9月份开始就一直关注在海外AI市场,特别是在产品这块,最近也是看到海外产品已经逐渐从单纯大模型的生成应用往实际需求和场景在切入了,包括对AGI实现的初步探索,虽然都在早期,但已经很明确地指出了整个未来发展的方向和趋势。所以我决定写这篇文章,结合海外最新趋势和我最近的深入思考,从产品角度出发,来剖析当下AI Paradigm的新阶段和新趋势。
另外我自己也在做中间层的创业,想找一位合适的技术合伙人,感兴趣的朋友欢迎在公众号后台回复【微信】,一块聊聊。
另外之前创建的深思圈信息分享群已经运行快半年了,里面会实时分享最新有用和有趣的信息,特别是AIGC这块,群里的信息密度和新鲜度非常高,交流氛围也很好,大家一块在群内讨论和学习。目前1群、2群、3群、4群和5群都已经满员了,我刚刚新建了6群,欢迎感兴趣的朋友可以后台回复关键词【信息】,扫码入群。
导语
这篇文章主要来讲讲近期我看到海外市场的一些最新产品和动态趋势,比如基于现有的GPT-4模型,结合外部数据和工具,来探索实现AGI的可能性,是当下海外市场非常热门的一个话题。下图是Github最新的开源榜单趋势,前三个JARVIS、Auto-GPT和BabyAGI都是这个方向的产品。最近中间层的大额融资也比较多,基于大模型的应用开发框架LangChain官宣了BenchMark投资的1000万美金种子轮(关于LangChain可以见之前文章《零基础|搭建基于私域数据的ChatGPT》),Fixie.ai官宣了红点领投的1700万美金融资,只有两个人的Dust.tt据说被红杉抢着投了500万美金,还有想做AI原生开源向量数据库的Chroma也官宣了Quiet Capital领投的1800万美金种子轮。这一波中间层的融资额很明显大过很多应用层的产品,但中间层也有巨大的非共识在里面,特别是在ChatGPT Plugin出来之后,有人觉得不再需要中间层了。要想搞清楚这一点,首先得分析未来结合了Plugin的ChatGPT会是什么样的最终形态?软件生态是百花齐放还是一枝独秀?开源模型又会在其中扮演什么样的角色?以上就是本篇文章会探讨的一些问题,欢迎大家继续往下看。
01.
AGI的探索和尝试
首先我们来聊聊基于现有GPT-4等大模型,去探索实现AGI这个方向的尝试。根据GPT-4给出的回答,AGI指的是通用人工智能,能够跟人类似的去理解、学习和推理问题,这里面就涉及到一个自我认知迭代的过程。最新一篇来自美国东北大学和MIT的论文提出了Reflexion这一新思路,通过对输出结果的重新思考和总结,再自我迭代之后继续运行,直到最后实现目标。
基于这样一个自我迭代的逻辑,在某种意义上离AGI就很接近了,如果哪一天能够实现AI自我编程和升级,这就是大家所定义的AI奇点时刻了。比如Untapped VC的合伙人Yohei开发的BabyAGI就是这样的一个思路——Task-driven Autonomous Agent(任务驱动的自动化代理),整个产品只有100多行代码,基于LangChain和向量数据库Pinecone打造,实现了根据用户提供的任务目标,自动拆解生成一个个小任务,然后通过对任务的执行以及结果的反馈,一步步进行迭代直到完成目标。
另一个叫AutoGPT的开源产品也是类似的思路,只不过增加了联网的能力,从而使得任务计划以及信息搜索的维度更加全面,执行效率更高。比如下面视频就是用AutoGPT来实现一个基本网页的过程,用户可以要求AutoGPT扮演什么样的角色,并且设置相应的5个关键目标。AutoGPT会从第一个目标开始执行,每次执行都会搜索相关信息,执行之后还会给出思考总结,然后根据这个思考总结进行下一步。整个过程AI可以在没有人工干预的情况下实现自我运行迭代,并改进自己的下一步操作。
Andrej Karpathy在Twitter上转发了AutoGPT的推文,并称这是下一阶段Prompt Engineering的探索方向。虽然目前受制于很多API还没有开放,但通过Prompt来定义某个Agent,并让Agent来感知、思考和执行的思路对未来发展有着重要意义。
目前也有网友基于开源的AutoGPT开发了网页版,方便普通人直接上手体验,感兴趣的朋友可以访问agentgpt.reworkd.ai试试。
以上这两个产品的思路是用GPT-4来调用同类的GPT-4或者GPT-3.5模型来做思考和执行,那么JARVIS(HuggingGPT)的思路则是让GPT-X这样的大模型来调用其他各类专业模型来思考和执行操作。这是由浙大和微软亚洲研究院共同开发的产品,其核心思路也是把自然语言Prompt作为连接各个模型之间的桥梁。如下图,当用户输入需求后,它会分成四个阶段来进行,首先是规划任务,让大模型来根据用户需求进行任务拆解和分析,然后是模型选择,将拆解后的任务根据需求分配给不同的专业模型,接着是任务执行,专业模型执行分配到的任务,并将结果返回给大模型,最后一步就是响应生成,大模型根据各个专业模型返回的结果生成最终符合用户需求的回复。
通过这样四个步骤和多个模型的配合,顺利解决了传统大语言模型在图像和音视频等多模态上的不足,并且具备了解决复杂问题,提升专业问题准确性的能力。这也跟我前几天翻译的文章《预测未来AI生态|一个大模型吃掉所有?》中的观点很类似,在特定高价值工作流上,专业模型具有更强的解决能力,我们需要充分将通用大模型跟专业模型的能力相结合,这是未来实现AGI的重要一环。目前用户也可以直接在Hugging Face上体验到网页版的产品Demo,访问https://huggingface.co/spaces/microsoft/HuggingGPT即可,下面这段视频是网页版HuggingGPT的Demo演示。
总结一下,如果说BabyAGI和AutoGPT是大模型借助外部数据源和API工具实现了自我迭代和任务执行,HuggingGPT则是大模型借助外部专业模型实现了复杂任务的执行,将两者结合在一起,未来的想象空间就更大了。此外,海外还有博主尝试当遇到没有现成外部工具时,让AI自己读文档、思考然后写代码来搭建工具。一整套流程下来,一个简单AGI雏形已经诞生了。当遇到问题时,它可以像人一样思考、分析和迭代,搜集外部信息,如果没有工具就自己动手做,随着底层大模型能力的增强和越来越多专业模型的诞生,很多人类的工作都可以通过这样一个个Agents来代替。
02.
中间层产品分析
说完海外产品上的最新探索趋势后,我们再来聊聊中间层。在上面提到的BabyAGI和AutoGPT这两款产品中都用到了LangChain的开发框架,我在之前的文章《零基础|搭建基于私域数据的ChatGPT》中也讲过LangChain,一个针对大模型应用的开发框架,帮助开发者快速实现基于大模型结合外部数据和API工具的AI应用开发。LangChain主要解决的是在开发基于大模型应用时,无法结合外部数据、无法结合上下文记忆和无法调用外部工具这三大痛点。它通过一个个模块对底层大模型能力进行封装,比如LLMs模块主要是用于调用各类底层模型的,PromptTemplate则是用来管理各种定制化Prompts,还有Chains用来创建各种组合工作流,Memory则是基于对话历史实现多轮对话,此外还有搭建Chatbot必备的Agents模块,可以根据用户的输入进行拆分,每一步骤都动态调用不同的Chains来完成任务。基于这些模块,使得开发者快速能够实现基于大模型AI应用的搭建,填补了大模型和复杂应用之间一个巨大的Gap。
LangChain作为一个面向开发者的产品,选择了开源的方式来塑造影响力和掌握先发优势,自去年十月份发布以后,整个迭代速度非常快,目前60%~70%以上的应用层产品都用到了LangChain这一开发框架。不过也有一些看衰LangChain的声音,比如有人觉得LangChain就只是一个封装库,其壁垒很薄,直接用OpenAI的API进行开发跟基于LangChain开发没有太大差别。其实这又回归到了LangChain本身的定位就是一个帮助开发者提高开发效率的工具,其核心的思路是模块化和可组合性,得益于开源社区的帮助,目前LangChain集成了20+不同的底层模型,50+文件加载工具、10种文本分割工具、10+向量数据库和15+外部工具来供开发者快速调用。此外LangChain还在进一步提前预置一些应用模版,包括特定的Chains和Agents来帮助开发者更快速的完成应用搭建。对于LangChain未来的发展计划,目前来看它会同众多开源软件那样,进一步增强自身安全性和稳定性,兼容更多企业级的开发工具,从而吸引到更多企业客户来做商业化变现。
如果说LangChain是一个纯面向开发者的开源框架,Fixie.ai和Dust.tt则是在此基础上做了进一步的封装和产品化,从而面向更广泛的团队和公司。Fixie主打的核心功能是通过大模型跟外部数据源和API工具结合来实现流程的自动化,从而解决复杂问题,用AI做的Agents来替代掉人的角色。跟LangChain不一样的是,所有这些模型、外部数据库连接和API工具等操作都是直接由Fixie在云端部署,从而提供一个安全、可规模化和高效的产品。Fixie的CEO认为大模型将会变革整个传统软件范式,因为大模型可以直接理解自然语言来解决相应的问题,使得用户不再需要写代码来连接不同的系统,而是利用Fixie自然语言构建Agents的方式来进行不同系统间的交互。
Fixie目前团队总共就8个人,核心创始成员4位,从团队成员背景上看,创始人&CEO Matt Welsh之前是哈佛大学教授,并且在Google和Apple都担任过首席工程师,也在Xnor.ai和OctoML等AI创业公司担任高级职位。联合创始人&CPO Zach Koch则是产品背景,之前在Shopify担任产品总监,并在Google的Chrome和Android团队担任产品负责人的角色。从这样一个团队背景和产品基础定位,我们也看出Fixie在一开始就聚焦在B端企业用户的需求,通过API和SDK的形式集成到企业各个工作流的产品和工具中,并把权限管理和隐私控制作为产品卖点。同时Fixie上还有大量已经创建好可以直接免费使用的Agents,帮助企业用户快速上手。
如此强劲的团队背景和清晰的目标定位,也帮助Fixie在种子轮就拿到了由Redpoint Ventures、Madrona等机构共同投资的1700万美金。在具体功能上,Fixie可以将用户现有的数据源和API跟大模型相结合,从而构建一个个AI Agents来执行相关的任务,在底层模型上,Fixie采取了Model-Agnorstic的策略,也就是用户可以自由选择使用的模型,可以是OpenAI的,也可以是开源模型甚至是自己的私有模型。在具体Use cases上,Fixie列举了客户支持、商业分析自动化、内容生产和CRM自动化等等用例。
其实这也是整个AI Paradigm发展的一个趋势,第一阶段是单纯对Prompt的使用和封装,第二阶段是加入外部数据源,实现ChatGPT for X的应用,比如ChatPDF、Chatbase都属于这一阶段的产物,让ChatGPT跟外部数据进行交互和问答。而目前正在逐渐进入第三阶段,这一阶段AI开始真正替代人类工作了。这一阶段的核心是(接下去的付费内容主要有:Fixie的使用案例、Dust.tt和Chroma产品分析、Plugin生态的本质和OpenAI基于此形成的三大独特优势、Plugin对实现AGI的价值和对中间层的影响,中间层的非共识以及未来整个AI生态格局的分析和判断)